Rapidité vs précision : deux experts nous expliquent les enjeux des GPU modernes sur les IA

À trop flotter, on prend le risque de couler

Publié dans

15/04/2024 9 minutes

Afin d’augmenter les performances de calculs de ses GPU (les fameux TFLOPS), NVIDIA ajoute des niveaux de précision supplémentaires : 8 bits avec Hopper, 6 et 4 bits avec Blackwell. Que cela implique-t-il ? Qu’en pensent les scientifiques ? Réponses croisées de Léo Hunout (IDRIS) et Stéphane Requena (GENCI).

Lors de l’annonce de son nouveau GPU Blackwell (B200) qui a la lourde tâche de remplacer Hopper (H100), NVIDIA mettait en avant une débauche de TFLOPS : jusqu’à pas moins de 20 000, contre 4 000 pour la génération précédente. Comme nous l’avions détaillé, deux points sont à prendre en compte, au-delà des chiffres.

NVIDIA annonce son GPU Blackwell (B200) pour l’IA, jusqu’à 20 000 TFLOPS (FP4)

Hopper ajoute FP8, Blackwell FP6 et FP4

Tout d’abord, Blackwell est un assemblage de deux GPU sur une seule et même puce, ce qui n’était pas le cas avec Hopper. Cela permet de doubler les performances à moindre coût. Ensuite, les TFLOPS sont avec une précision réduite en FP4.

Si on met en face Blackwell et Hopper sur une base comparable (un seul GPU, en FP8), on passe de 3 958 à 5 000 TFLOPS avec le saut de génération. Le FP8 a pour rappel été introduit par NVIDIA avec Hopper, et avec le succès que l’on connait du GPU pour l’entrainement et l’inférence des IA génératives (nous y reviendrons).

Mais Blackwell intègre deux GPU : les performances sont donc doublées, rien à redire sur ce point. Reste la question de la précision FP4 lancée par NVIDIA. Est-ce que cela correspond à une réalité sur le terrain des intelligences artificielles ? La baisse constante de la précision (FP32, FP16, Bfloat16, FP8…) permet-elle d’augmenter significativement les performances ?

Nous avons posé ces questions à deux spécialistes du domaine : Léo Hunout, ingénieur spécialiste en intelligence Artificielle à l'IDRIS (CNRS), ainsi que Stéphane Requena, directeur innovation et technologie au Grand équipement national de calcul intensif (GENCI).

Le FP8 et FP4 sont « très intéressants » pour l’intelligence artificielle

La suite est réservée à nos abonnés.

Déjà abonné ? Se connecter

Abonnez-vous

DMA : la Commission européenne désigne iPadOS comme contrôleur d’accès

16:21 4

Microsoft dévoile Infra Copilot, spécialisé dans le code d’infrastructure

14:41 0

Mastodon : l’entreprise allemande d’Eugen Rochko devient à but lucratif

14:09 15

La CNIL clôt une procédure après la mise en conformité d’une entreprise qui violait le RGPD et le Code du travail

12:07 7

Chiffrement : WhatsApp menace de quitter l’Inde

11:04 11

Microsoft ouvre les sources de… MS-DOS 4.0

10:02 19

La Paris Games Week reviendra du 23 au 27 octobre 2024

08:04 2

Apple bloque une mise à jour de Spotify sur iOS, nouvelles bisbilles

06:59 17

Commentaires (8)

fred42 Abonné

Le 15/04/2024 à 10h 39

« En réalité, on finira par atteindre le plancher de la représentation de l'information, c'est le Graal de ceux qui font de la compression sans perte et, finalement, c'est ce que fait un LLM dans une certaine mesure ».

Je soupçonnais un truc de ce genre dans mes commentaires quand on parlait des IA qui copiaient les œuvres existantes : la course à la performance des LLM les transformaient en système de compression de l'information. Je ne pensais pas cependant être si près de la vérité.

Martin Clavey Équipe

Le 15/04/2024 à 10h 54

#1.1

On en parlait en octobre dernier https://next.ink/812/les-modeles-langage-sont-redoutables-outils-compression-sans-perte/ ;)

Le 15/04/2024 à 12h 25

#1.2

Martin Clavey

Bon rappel.
Je pense que je ne m'en souvenais pas quand j'ai fait ce type de commentaires qui portait aussi sur la génération d'images, mais de toute façon, les technos de compression ont les mêmes fondements que ce soit du texte ou des images.

Modifié le 15/04/2024 à 12h26

Historique des modifications :

Posté le 15/04/2024 à 12h25

Bon rappel.
Je pense que je ne m'en souvenais pas quand j'ai fait ce type de commentaire qui portait aussi sur la génération d'images, mais de toute façon, les technos de compression ont les mêmes fondements que ce soit du texte ou des images.

SebGF Abonné

Le 15/04/2024 à 17h 59

#1.3

fred42

La compression c'est même ce qui permet à Stable Diffusion de pouvoir tourner sur du GPU type consumer et pas une ferme de ouf. Lorsqu'un modèle est entraîné ou bien quand il traite un prompt, il réduit le calcul en cours dans un espace latent beaucoup plus petit qui permet de faire des itérations plus rapides. Une fois terminé, son module principal s'occupe de décompresser le résultat de l'espace latent et finaliser la production.

C'est une grosse différence par rapport à d'autres modèles qui travaillent uniquement en pixel space, ce qui demande beaucoup plus de ressources.

apwwn Abonné

Le 15/04/2024 à 11h 07

une variante LLM 1 bit, à savoir BitNet b1.58, dans laquelle chaque paramètre (ou poids) du LLM est ternaire {-1, 0, 1}

Comment peut on avoir 3 valeur sur 1 seul bit ? C'est 0 ou 1 si on veut le signe il faut 1 bit de plus pour l'encoder non ?

fdorin Abonné

Le 15/04/2024 à 11h 38

#2.1

En fait, ce n'est pas un LLM à 1 bit, c'est une variante d'un LLM à 1 bit. La valeur ternaire se retrouve encodée sur 1,58 bits, d'où le nom. On peut retrouver l'article sur arxiv.org (en anglais).

Modifié le 16/04/2024 à 08h22

Posté le 15/04/2024 à 11h38

Ferrex Abonné

Le 15/04/2024 à 15h 12

#2.2

Pour des explications : https://arxiv.org/pdf/2402.17764.pdf

Modifié le 15/04/2024 à 15h13

Posté le 15/04/2024 à 15h12

Posté le 15/04/2024 à 15h13

SwAY256 Abonné

Le 15/04/2024 à 22h 26

Merci pour cet article qui clarifie les choses. C'est un sujet qui sera à surveiller sur les évolutions futures des gpus.

Rapidité vs précision : deux experts nous expliquent les enjeux des GPU modernes sur les IA

À trop flotter, on prend le risque de couler

Hopper ajoute FP8, Blackwell FP6 et FP4

Le FP8 et FP4 sont « très intéressants » pour l’intelligence artificielle

La suite est réservée à nos abonnés.

Tiens, en parlant de ça :

noyb porte plainte contre OpenAI sur les « hallucinations » de ChatGPT

noyb vs OpenAI, S01E01

Android TV laisse installer Chrome et accéder aux données du compte Google

Une mise à jour ? Quelle mise à jour ?

#Flock fait son cinéma

Huahu ahu ouin ouin ouiiin... Vous l'avez ?

Sommaire de l'article

Introduction

Hopper ajoute FP8, Blackwell FP6 et FP4

Le FP8 et FP4 sont « très intéressants » pour l’intelligence artificielle

« Plus la précision est faible, plus on peut mettre de choses sur le GPU »

FP8, FP6, FP4… peut-on descendre encore ?

Les besoins en précision dépendent des IA

Le HPC doit s’adapter « pour continuer à bénéficier des boosts »

noyb porte plainte contre OpenAI sur les « hallucinations » de ChatGPT

Android TV laisse installer Chrome et accéder aux données du compte Google

#Flock fait son cinéma

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

DMA : la Commission européenne désigne iPadOS comme contrôleur d’accès

Microsoft dévoile Infra Copilot, spécialisé dans le code d’infrastructure

Mastodon : l’entreprise allemande d’Eugen Rochko devient à but lucratif

La CNIL clôt une procédure après la mise en conformité d’une entreprise qui violait le RGPD et le Code du travail

Chiffrement : WhatsApp menace de quitter l’Inde

Microsoft ouvre les sources de… MS-DOS 4.0

La Paris Games Week reviendra du 23 au 27 octobre 2024

Apple bloque une mise à jour de Spotify sur iOS, nouvelles bisbilles

Commentaires (8)

Historique des modifications :

Historique des modifications :

Historique des modifications :